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摘要 : [目的 /意义 ] 针对 当前 数字 档案 服务 质量 智能 化 程度 不 足 、 服 务 内 容 单 一 等 短 板 ， 设 
想 构 建 数字 档案 知识 图 谱 整 体 架构 ， 达 到 数字 档案 大 数据 的 统计 分 析 、 数 字 档 案 资 源 集 成 优化 
以 及 数字 档案 整体 服务 水 平 提升 的 目的 。 [方法 /过 程 ] 通过 收集 文献 分 析 数 字 档 案 馆 的 服务 
缺陷 ， 体 验 式 调研 各 省 市 数字 档案 馆 网 页 服务 水 平 ， 汇 总 各 档案 馆 目前 服务 模式 的 不 足 ， 完 善 
数字 档案 知识 图 谱 架 构 流 程 ， 最 终 以 流程 图 的 形式 展示 。[ 结果 /结论 ] 知识 图 谱 能 够 将 多 种 
类 型 的 数字 档案 文本 转化 为 计算 机 可 理解 的 数据 ， 提 高 计算 机 智能 识别 水 平 ， 同 时 图 谱 所 具备 
的 动态 时 序 性 和 针对 性 能 够 按照 时 间 节 点 提高 档案 整合 程度 ， 同 时 基于 用 户 浏览 检索 痕迹 更 新 
用 户 数据 ， 提 升 服务 质量 ， 并 增强 数字 档案 馆 之 间 的 合作 交流 以 达到 整合 资源 的 效果 ， 为 更 好 
地 优化 数字 档案 服务 提供 有 益 参 考 。 
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L1 EIES 的 组 织 在 语义 方面 尚 处 于 初步 尝试 阶段 ， 如 何 
将 数字 档案 资源 在 语义 层面 组 织 起 来 ， 为 用 户 
提供 更 为 精准 的 服务 ,已 成 为 当前 档案 服务 部 
门 亟 待 解决 的 现实 问题 。 基 于 当前 数字 档案 服 
务 所 存在 的 零散 、 复 杂 和 智能 化 程度 不 够 等 问 
题 ， 本 文 提出 将 知识 图 谱 技术 与 数字 档案 服务 
融合 这 一 理念 。 知 识 图谱 作 为 一 种 新 兴 语 义 处 
理 模型 ， 能 够 将 实体 与 实体 连接 起 来 ， 挖 掘 并 


由 于 语义 技术 的 突出 表现 ,许多 领域 都 看 
到 了 语义 网 络 带 来 的 便利 及 其 难以 被 取缔 的 优 
势 ， 档 案 界 也 开始 对 数字 档案 的 未 来 发 展 有 了 
新 的 想法 。 同 时 随 着 互联 网 的 发 展 ， 人 与 人 、 
档案 与 人 的 交流 也 全 发 密切 ， 档 案 服务 与 语义 
网 络 的 结合 已 经 在 所 难免 。 目 前 数字 档案 资源 
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展示 实体 间 关系 ,提炼 不 同 档 案 核心 词 ， 将 档 
案 相关 知识 进行 整合 , 促进 数字 档案 资源 聚拢， 
提升 用 户 使 用 体验 ， 达 到 用 户 输入 单一 档案 知 
识 点 ， 便 能 通过 知识 图 谱 来 获得 其 他 相关 档案 
知识 的 效果 ， 即 图 谱 自 动 实现 相关 内 容 扩 展 ， 
减少 检索 步 又， 提高 检索 效率 ,完善 检索 内 容 ， 
最 终 实现 优化 智能 服务 的 目的 。 


@ 相 关 研 究 


知识 图 谱 是 一 种 描绘 实体 之 间 关 系 的 语义 
网 络 ， 是 人 工 智能 重要 研究 领域 一 一 知识 工程 的 
主要 表现 形式 之 一 。 目 前 可 获取 的 相关 知识 库 
资源 包括 国外 的 Freebase, Wikidata, DBpedia, 
YAGO 等 ， 国 内 有 复旦 大 学 公布 的 中 文 概念 图 谱 
CN-Probase 等 。 本 文 构建 的 知识 图 谱 架 构 不 是 泛 
化 的 通用 知识 图 谱 架 构 ， 而 是 构建 基于 档案 的 领 
域 知识 图 谱 架 构 。 不 同 于 通用 知识 图 谱 ， 领 域 知 
识 图 谱 能 利用 领域 特有 知识 快速 构建 知识 库 ， 如 
医疗 知识 图 谱 、 地 理 知识 图 谱 、 军 事 知 识 图 谱 及 
农业 知识 图 谱 等 趾 。 目前， 知识 图 谱 的 研究 主 
要 集中 在 针对 已 有 元 数据 (EAD Dublin Core 等 ) 
的 基础 上 ， 探 讨 元 数据 语义 互 操作 以 及 映射 关 
系 中。 例如 ， 杨 匡 雅 在 企业 档案 数据 应 用 中 引入 
语义 本 体 概念 实现 档案 数据 语义 分 析 的 流程 ， 在 
此 基础 上 构建 联通 电子 档案 知识 图 谱系 统 中 ; E 
洁 等 基于 Protégé, OWL 等 技术 构建 计算 机 可 理 
解 的 科研 档案 知识 图 谱 语 义 模型 外， 舒 忠 梅 基于 
当下 数字 人 文 的 发 展 背 景 ， 提 出 档案 时 空 本 体 模 
型 及 档案 数据 抽取 框架 ,构建 档案 关联 数据 知识 
图 谱 ， 以 可 视 化 的 形式 展现 趾 ，B. S. Balaji 等 采 
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分 为 运营 方式 、 服 务 对 象 、 服 务 方式 三 个 模块 
进行 分 析 ， 提 出 基于 我 国 档案 服务 优化 建议 P1; 
王 文 强 通 过 分 析 智 慧 服 务 和 数字 档案 馆 的 利 
次 ， 转 变 企业 档案 信息 服务 模式 ， 由 “信息 服 
务 ”向 “知识 服务 ”“ 智 慧 服 务 ” 模 式 优化 "; 
连 志 英 基 于 对 数字 档案 信息 用 户 需 求 、 用 户 行 
为 的 分 析 ， 对 数字 档案 信息 用 户 进 行 分 类 及 构 
建 数字 档案 信息 用 户 模型 ， 并且 根据 用 户 需 求 
和 用 户 行为 建设 数字 档案 信息 资源 及 数字 档案 
信息 服务 平台 ， 用 以 提供 相应 的 个 性 化 数字 档 
案 信息 服务 站。 国外 ， 大 多 是 将 数字 档案 与 文 
化 遗产 保护 以 及 历史 应 用 相 结 合 ， 也 会 相应 探 
讨 一 些 关 于 数字 档案 馆 建 设 的 内 容 。 例 如 ,TT 
Hauswedell 等 考察 了 制度 、 知 识 、 经 济 、 技 术 、 
实践 和 社会 因素 的 复杂 相互 作用 ,与 主要 报纸 
数字 化 计划 的 公营 和 私营 供应 商 进行 了 一 系列 
半 结 构 化 的 采访 并 进行 了 分 析 ， 认 为 那些 很 少 
被 突出 或 强调 的 因素 的 新 兴 理 解 ， 从 根本 上 塑 
造 了 数字 文化 遗产 档案 的 次 度 和 范围 ， 应 关注 
这 些 因素 的 在 未 来 档案 发 展 中 的 潜在 优点 中 ; C. 
H. Marcondes 分 析 了 档案 馆 等 使 用 关联 数据 技 
术 的 可 行 性 及 问题 上 。 

综合 以 上 所 述 ， 目 前 针对 数字 档案 的 服务 
大 体 上 还 处 于 一 种 针对 服务 内 容 和 服务 框架 的 
构建 ， 集 中 在 对 资源 、 数 据 、 服 务 模式 等 的 探 
讨 方面 ， 实 践 性 研究 较 少 。 且 能 明显 感觉 到 当 
下 各 省 市 数字 档案 的 系统 性 管理 和 智能 服务 提 
供 并 不 完备 ， 目 前 国家 正 快速 迈进 智慧 时 代 ， 
随 着 对 语义 网 络 相关 技术 的 逐步 了 解 ， 学 者 也 
充分 意识 到 语义 技术 的 发 展 对 于 数字 档案 服务 


用 语义 对 描述 文档 进行 解析 ， 并 构架 云 服 务 推荐 
AU, 

而 在 数字 档案 服务 方面 ， 以 往 用 户 熟 知 的 
档案 服务 方式 多 为 被 动 服务 ， 即 被 动 调动 和 被 
动 查看 , 导致 各 档案 文件 之 间 多 呈现 孤立 关系 ， 
用 户 取 用 困难 ， 操 作 繁 琐 。 目 前 国内 大 部 分 学 
者 使 用 转变 服务 模式 、 构 建 资 源 平台 等 方法 来 
解决 该 问题 。 例 如 ， 曹 玲 等 对 美国 常 青 腾 八 所 
高 校 的 数字 档案 信息 服务 模式 进行 研究 ， 将 其 


效率 以 及 服务 质量 的 提升 有 着 重要 的 影响 。 而 
知识 图 谱 所 带 来 的 集成 化 和 系统 化 可 以 很 好 地 
应 对 数字 档案 零散 化 问题 ， 并 且 通 过 整理 推荐 
为 用 户 提供 有 针对 性 、 全 面 性 的 服务 。 另 外 ， 
基于 数字 档案 服务 在 各 行 各 业 的 不 同 作 用 情况 ， 
本 文 考 虑 数字 档案 的 统一 特征 , 通过 语义 关联 ， 
联结 数字 档案 实体 ， 运 用 可 视 化 图 表 展 示 实 体 
间 关 系 ， 构 建 知识 图 谱 以 推进 数字 档案 服务 模 
式 的 升级 。 


202310.02965v1 


chinaXiv 


T 知识 管理 论坛 
EFC 2021 年 第 4 期 (总 第 34 期 ) 
@ 数 字 档 案 服务 模式 现状 分 析 


3.1 现 有 服务 模式 的 局 限 

档案 服务 是 指 档案 机 构 利 用 馆藏 优势 ， 指 
导 用 户 利用 档案 、 获 取 档 案 信 息 的 过 程 。 

而 现 有 衡量 服务 模式 优 劣 的 两 个 重点 包括 
档案 服务 人 员 服 务 质量 以 及 档案 服务 机 构 智 能 
化 程度 ， 在 档案 服务 人 员 服 务 质 量 方面 ， 传 统 
的 档案 服务 模式 多 为 被 动 服务 ， 大 多 数 企 业 或 
政府 的 档案 工作 人 员 在 档案 服务 整体 信息 化 程 
度 不 高 的 情况 下 ,对 档案 服务 的 认 知 不 够 明确 ， 
其 职能 仅仅 在 于 管理 和 保存 纸 质 档案 ， 维 护 档 
案 信息 安 全 等 ， 而 为 用 户 提 供 档 案 检索 服务 等 
更 具有 实际 意义 的 工作 不 在 其 职责 范围 内 ， 将 
如 何 从 数量 庞大 的 档案 信息 数据 库 中 查找 所 需 
档案 的 难题 留 给 了 用 户 自己 。 

另外 ,在 档案 服务 机 构 智 能 化 程度 方面 ， 
由 于 新 时 代 “ 互 联网 + 大 数据 ”的 飞速 发 展 ， 
档案 服务 走向 主动 和 智能 的 模式 ， 通 过 计算 机 设 
备 与 其 他 各 种 互联 网 终端 相连 接 ， 通 过 一 定 的 技 
术 方 式 向 用 户 提 供 各 类 档案 信息 或 产品 的 服务 模 
式 ， 逐 渐 成 为 数字 档案 服务 模式 的 主流 ， 其 中 最 
有 具 代表 性 的 是 数字 档案 馆 和 智慧 档案 馆 。 但 目前 
数字 档案 馆 的 建设 还 处 于 起 步 阶段 ， 所 提供 的 个 
性 化 服务 极其 有 限 ， 不 仅 智能 化 程度 低 ， 且 操作 
复杂 ， 难 以 形成 整合 型 的 服务 进行 推送 。 笔 者 对 
现 有 省 市 档案 馆 网 站 进行 体验 式 调 查 后 总 结 发 
现 ， 现 有 档案 馆 网 站 中 虽然 大 多 拥有 开放 档案 查 
询 服务 ， 但 基本 依托 用 户 自 主 查询 ， 且 对 查询 关 
键 词 要 求 较 高 ， 同 时 跳 转 链接 较 多 ， 查 询 过 程 复 
杂 ， 例如， 登录 湖北 省 档案 馆 官 网 查询 某 档案 ， 
系统 提示 进入 档案 信息 网 进行 查询 ， 但 并 没有 提 
供 对 应 链接 。 通 过 自行 查找 得 到 的 档案 信息 网 链 
接 ， 点 击 得 出 结果 则 直接 跳 转 回 湖北 省 档案 馆 主 
页 。 因 此 可 以 看 出 ， 当 前 档案 馆 网 站 存在 服务 水 
平 有 限 、 集 成 化 程度 不 高 、 操 作 复杂 等 局 限 性 。 
3.2 基于 知识 图 谱 的 数字 档案 服务 模式 的 可 行 性 
分 析 

随 着 语义 网 络 、 神 经 网 络 的 发 展 , 知识 图 谱 、 
图 数据 库 、 深 度 学 习 等 相关 技术 也 逐渐 渗透 到 
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图 情 档 研究 领域 ， 使 得 档案 数据 语义 描述 与 关 
联 、 知 识 融 合 、 信 息 可 视 化 等 成 为 可 能 。 同 时 ， 
伴随 智慧 城市 的 建设 推动 ， 档 案 服务 也 开始 重 
视 用 户 需求 并 将 服务 方式 逐渐 向 以 用 户 需 求 为 
中 心 转移 ， 诸 如 数字 档案 馆 、 智 慧 档案 馆 等 ， 
在 处 理 档 案 数 据 、 调 动 档案 资源 等 方面 尚 存 不 
足 。 基 于 知识 图 谱 的 数字 档案 服务 通过 对 数字 
档案 资源 的 语义 关联 和 本 体 提炼 ， 可 以 准确 提 
取 数 字 档 案 资 源 的 核心 ， 并 通过 简洁 明了 的 可 
视 化 形式 展现 给 用 户 。 

首先 ， 档 案 数据 质量 较 高 。 相 较 于 数量 庞 
大 且 形 式 复杂 的 互联 网 大 数据 ， 档 案 数 据 都 是 
真实 事件 记录 和 数据 保存 ， 在 入 库 时 已 经 经 过 
筛选 、 分 类 和 人 整理， 对 不 同 的 数字 档案 也 有 相 
应 的 规范 格式 和 要 求 ， 这 就 为 基础 档案 数据 处 
理 构建 了 良好 的 基础 ， 其 次 ,知识 图 谱 的 系统 
性 能 够 有 效 帮 助 整理 零散 的 档案 。 即 运用 图 映 
里 、 包 装 絮 等 工具 ， 基 于 对 数据 深加工 的 需求 ， 
对 数字 档案 的 结构 进行 清洗 、 变 换 和 集成 ， 使 
之 变 为 计算 机 可 以 理解 的 结 点 ， 在 此 基础 上 识 
别 实体 、 连 接 实 体 、 分 析 实 体 ， 对 档案 实体 进 
行 语义 关联 ， 连 接 成 数字 档案 知识 图 谱 。 最 后 ， 
知识 图 谱 的 输出 模式 能 够 有 效 提升 用 户 体验 。 
图 谱 将 用 户 搜索 到 的 相关 档案 以 可 视 化 的 形式 
输出 ， 能 够 更 加 清晰 和 便利 地 展现 档案 间 的 联 
系 ， 同 时 图 谱 的 动态 更 新 特性 能 够 及 时 修改 用 
户 取向 ， 使 得 服务 更 加 智能 。 


Q 基于 知识 图 谱 的 数字 档案 服务 模 
UR 


知识 图 谱 的 构建 通常 有 自 顶 向 下 和 自 底 回 
上 两 种 模式 ""， 基 于 档案 的 强 领域 性 ， 本 文选 
择 自 底 向 上 的 构建 形式 ， 即 通过 迭代 更 新 ， 从 
言 县 抽取 到 知识 融合 、 知 识 加 工 ， 最 后 进行 知 
识 更 新 ， 从 分 析 数 据 到 输出 服务 的 模式 。 基 于 
知识 图 谱 的 数字 档案 服务 模式 最 终 回 归于 应 用 
领域 ,将 知识 图 谱 与 数字 档案 服务 模式 相 结 合 
的 目的 也 是 为 了 优化 服务 模式 ， 因 此 依据 知识 
图 谱 理论 、 本 体 理论 、 智 能 代理 技术 、 云 计算 
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技术 以 及 个 性 化 推荐 技术 ， 将 数字 档案 知识 图 
谱 服 务 平台 梳理 为 4 个 层次 : 中 知识 抽取 层 。 
主要 作用 是 将 外 部 不 同 结构 的 数字 档案 信息 资 
源 汇集 起 来 ， 通 过 知识 抽取 层 的 结构 化 分 类 和 
分 层 ， 转 化 成 计算 机 可 识别 和 理解 的 数据 ， 规 
es 
层 。@) 图 谱 构建 层 。 这 一 层 主 要 进行 档案 知识 
c ET uc 
齐 形成 数字 档案 资源 知识 库 。@ 图 谱 更 新 层 。 


反馈 修复 
| nome — mess EA pres 


提供 服务 
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该 层 主要 分 为 两 个 部 分 ， 包 括 收 集 用 户 浏览 痕 
迹 对 用 户 个 体 数据 库 进 行 更 新 ， 以 及 收 归 新 档 
案 对 数字 档案 资源 库 进 行 更 新 。 通 过 这 两 方面 
的 更 新 使 得 构建 的 数字 档案 知识 图 谱 不 是 单一 
的 、 片 面 的 ， 而 是 不 断 完 善 的 。 由 图 谱 应 用 层 。 
最 终 构 建 的 数字 档案 知识 图 谱 能 够 为 档案 服务 
带 来 不 同 的 应 用 效果 ， 包 括 图 谱 动 态 更 新 、 用 
户 偏好 个 性 化 推荐 、 数 字 档 案 智能 搜索 和 数字 
档案 馆 资源 共享 。 具 体 架 构 如 图 1 所 示 : 


A 35 gl mé pal 


i 知识 加 工 


BUD i S mi Dal 


DEZ E ES! 


图 1 基于 知识 图 谱 的 数字 档案 服务 模式 架构 
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4.1 知识 抽取 层 

知识 抽取 层 主要 包括 数据 整合 和 信息 抽 
取 两 个 部 分 。 数 据 整 合 部 分 是 对 收集 到 的 不 同 
数字 档案 数据 进行 整理 和 挑选 ， 这 些 数据 包括 
从 不 同行 业内 部 业务 系统 中 收集 的 、 从 档案 领 
域 百科 中 整理 出 来 的 以 及 从 业务 外 部 系统 承接 
的 ， 不 同形 式 和 不 同 结构 的 数字 档案 数据 。 而 
档案 数据 包括 各 级 各 类 档案 机 构 收集 的 具有 档 
案 性 质 的 数据 记录 ， 包 括 各 种 数据 形式 的 档案 
资源 ， 如 各 类 数字 档案 、 多 媒体 档案 ; 亦 包括 
档案 管理 与 利用 过 程 中 产生 的 数据 ， 如 档案 网 
站 的 浏览 记录 、 平 台 日 记 、 查 阅 服 务 数据 、 档 
案 统计 数据 等 史 ， 而 日 常 办 公使 用 的 Word、 
PPT、Excel、PDF 等 数据 是 非 结构 化 数字 档案 
资源 中。 基于 当下 数字 档案 资源 的 结构 化 不 统 
一 的 问题 ， 笔 者 认为 可 以 运用 自然 语言 处 理 技 
R (NLP) 以 及 包装 器 等 工具 将 这 些 非 结 构 化 
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资源 进行 统一 调整 、 清 洗 和 修正 , 包括 运用 词典 、 
统计 和 规则 的 方法 对 档案 数据 进行 分 词 ， 再 基 
于 分 词 结果 进行 清洗 过 滤 ， 如 去 掉 停 用 词 、 去 除 
单字 ， 对 分 词 进行 词性 标注 等 。 同 时 还 可 以 利用 
Word2vec 等 模型 通过 词 舱 入 将 档案 词语 从 one- 
hot encoder 形式 的 表示 降 维 到 较 短 的 词 向 量 , 使 
得 计算 机 能 够 更 好 地 理解 和 分 析 数 据 ， 发 现实 体 
之 间 的 语义 关系 。 而 信息 抽取 部 分 则 是 包括 实 
体 抽取 、 关 系 抽取 和 属性 抽取 三 个 部 分 ， 其 中 ， 
档案 实体 抽取 是 运用 规则 与 词典 、 统 计 机 需 学 
习 和 面向 开放 域 三 种 方式 ， 从 数字 档案 资源 中 
识别 并 提取 实体 ;档案 关系 抽取 是 指 采 取 监 督 
学 习 或 远程 监督 学 习 的 方式 ， 抽 取 实 体 间 的 关 
系 ， 解 决 档案 资源 实体 间 语 义 链接 的 问题 ， Tí 
案 属 性 抽取 是 指 对 档案 资源 实体 的 某 些 特征 和 
性 质 进行 抽取 ， 也 可 以 看 作 是 实体 与 属性 值 间 
的 一 种 名 词性 关系 ， 具 体 流 程 如 图 2 所 示 : 


图 2 数字 档案 领域 实体 抽取 与 关系 抽取 


4.2 图 谱 构 建 层 

图 谱 构 建 层 分 为 知识 融合 和 知识 加 工 两 大 
部 分 。 在 大 量 非 结 构 化 档案 信息 经 过 处 理 后 ， 
能 够 获得 实体 、 关 系 以 及 属性 的 相关 信息 ， 但 
这 些 结果 可 能 包含 大 量 的 错误 信息 和 宛 余 重复 
信息 ， 数 据 之 间 的 关系 也 不 清晰 ， 缺 乏 层 次 性 
和 逻辑 性 ， 因 此 需要 通过 知识 融合 进行 清洗 和 
整合 。 知 识 融合 包括 两 个 方面 ， 其 中 实体 链接 
是 指 将 抽取 到 的 实体 与 知识 库 相 联结 的 程序 ， 
主要 方法 包括 实体 消 歧 和 共 指 消解 。 实 体 消 歧 
主要 是 解决 同名 实体 出 现 歧义 的 问题 ,使 用 较 


多 的 方法 主要 为 聚 类 法 。 而 共 指 消解 则 是 用 于 
解决 多 个 指向 对 应 一 个 实体 对 象 的 问题 ， 国 外 
相关 人 研究 相对 来 说 已 经 比较 成 熟 ， 同 时 出 现 的 
实体 相似 性 模型 、 上 下 文 相似 性 模型 能 够 很 好 
地 解决 这 一 问题 。 而 知识 合并 是 指 将 第 三 方 的 
数据 合并 进 数据 库 ， 包 括 合并 外 部 知识 库 和 关 
系数 据 库 两 个 方面 。 

通过 知识 融合 ， 可 以 得 到 一 系列 基本 的 事 
实 表达 ， 但 事实 并 不 等 于 知识 ， 因 此 需要 进入 
知识 加 工 阶段 。 知识 加 工 主 要 包括 三 方面 内 容 : 
本 体 构建 、 知 识 推理 和 质量 评估 。 数 据 在 经 过 
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知识 融合 之 后 ， 识 别 实体 已 经 变 成 标准 化 知识 
并 且 附 有 相关 属性 关系 ， 被 归 人 知识 库 中 。 受 
现 有 技术 限制 ， 通 过 信息 抽取 的 知识 元 素 仍 可 
能 存在 错误 ， 因 此 在 构建 完整 的 档案 知识 图 谱 
之 前 ， 需 要 进行 质量 评估 ， 并 且 通 过 对 知识 的 
可 信和 度 进 行 量化 ， 通 过 舍弃 置信 和 度 低 的 知识 来 
确保 档案 知识 图 谱 内 数据 的 质量 。 同 时 从 已 有 
的 实体 关系 出 发 ， 经 过 计算 机 推理 ， 发 现 新 的 
实体 关系 ， 档 案 知识 图 谱 网 络 得 到 进一步 完善 
和 更 新 。 而 数字 档案 资源 本 体 ， 是 经 过 组 织 的 
一 种 质量 较 高 的 知识 表示 模型 ， 在 知识 图 谱 的 
构建 中 本 体 主要 可 起 到 控制 图 谱 质 量 的 作用 ， 
不 一 定 会 参与 到 图 谱 建 立 的 流程 中 ， 仅 作为 一 
种 数据 质量 评估 的 参考 资源 库 ， 在 档案 知识 

谱 构 建 过 程 中 充当 辅助 角色 ， 同 时 帮助 优化 知 
识 图 谱 更 新 。 

43 图 谱 更 新 层 

图 谱 更 新 层 包 括 用 户 需 求 更 新 和 档案 资源 
更 新 两 大 模块 ， 通 过 收集 归纳 新 进 档 案 和 用 户 
网 页 浏览 查询 痕迹 等 数据 ,保持 图 谱 的 实时 性 ， 
同时 提高 服务 精准 度 ， 增 强 图 谱 适 配 性 。 

在 用 户 需 求 更 新 方面 ， 不 同 的 用 户 行为 数 
据 通 过 数据 驱动 自动 对 档案 资源 进行 本 体 构 建 ， 
再 经 过 质量 评估 方法 与 人 工 审 核 相 结合 的 方法 
加 以 修正 与 确认 。 本 体 构 建 之 后 ， 对 知识 库 的 
数据 来 往 以 及 反馈 不 断 进 行 修订 ， 同 时 ， 知 识 
库 也 收集 用 户 对 知识 库 的 使 用 痕迹 并 不 断 进行 
调整 和 更 新 ， 加 入 时 间 维 度 ， 利 用 时 序 分 析 技 
术 和 图 相似 性 技术 ,分 析 图 谱 结 构 随 时 间 的 变 
化 和 趋势 ， 从 而 掌握 到 关键 信息 ， 构 建 动态 时 
序 图 谱 。 

在 档案 资源 更 新 方面 ， 运 用 知识 图 谱 中 的 
知识 推理 板块 ， 如 基于 Tableaux 运算 能 够 检查 
某 一 本 体 的 可 满足 性 ， 同 时 通过 实例 对 本 体 进 
行 检 测 ; 而 基于 逮 辑 编程 改写 可 以 根据 特定 的 
场景 定制 规则 ， 以 实现 用 户 自 定义 的 推理 过 程 ; 
基于 一 阶 查 询 重 写 能 够 高 效 地 结合 不 同 数据 格 
式 的 数据 源 ， 同 时 关联 起 不 同 的 查询 语言 ; 基 
于 产生 式 规则 可 以 控制 系统 的 执行 ， 通 过 制定 
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一 定 的 机 制 执 行规 则 实现 更 好 地 前 向 推理 等 ; 
另外 ， 针 对 构建 的 知识 库 进 行 质 量 评估 也 是 确 
保 知 识 图 谱 内 容 正 确 可 用 的 关键 步 又， 评估 结 
束 后 需 将 符合 标准 的 档案 资源 数据 导入 档案 知 
识 图 谱 中 。 
4.4 Bit HJ 

图 谱 应 用 层 是 指 通过 完整 的 知识 图 谱 构建 
流程 ， 将 数字 档案 馆 中 不 同 的 数字 档案 资源 进 
行 集成 和 整理 ， 形 成 档案 知识 图 谱 ， 输 出 到 应 
用 层面 ， 通 过 知识 图 谱 对 数字 档案 信息 源 的 生 
成 数据 进行 处 理 ， 将 产 出 的 结构 化 关联 数据 用 
于 深度 学 习 算法 训练 ， 得 到 能 解决 具体 场景 问 
题 的 研判 模型 ， 从 而 形成 解决 办 法 产生 价值 的 
服务 形式 ， 包 括 基 于 关联 规则 算法 的 图 谱 动 态 
更 新 、 基 于 肾 类 算法 的 档案 用 户 偏好 个 性 化 推 
荐 、 基 于 分 类 与 预测 算法 的 数字 档案 智能 搜索 、 
基于 整体 优化 的 数字 档案 资源 共享 等 。 


Q 基于 知识 图 谱 的 数字 档案 服务 模 
式 优 势 及 应 用 


基于 知识 图 谱 的 数字 档案 服务 模式 架构 的 
构建 始终 立足 于 为 用 户 提供 更 有 效 、 更 方便 、 
更 智能 的 服务 ， 通 过 对 数字 档案 的 数据 整理 ， 
结合 知识 图 谱 构 建 流程 ， 利 用 自然 语言 处 理 技 
术 、 实体 识别 、 本 体 构 建 、 关系 抽取 等 关键 技术 ， 
构建 基于 数字 档案 知识 图 谱 的 架构 ， 能 够 支撑 
数字 档案 的 智能 性 管理 ， 提 供 动态 档案 图 谱 知 
能 更 新 、 自 动 分 析 用 户 偏 好 、 立 足 数字 档案 内 
容 的 智能 搜索 以 及 数字 档案 馆 资源 共享 。 

5.1 图 谱 动 态 更 新 

随 着 互联 网 技术 的 不 断 发 展 ， 档 案 服务 逐 
渐 实 现 数字 化 ,但 目前 的 数字 档案 服务 现状 仍 
浮 于 表面 ， 首 先 建设 的 是 数字 档案 的 存储 与 管 
理 问题 ， 对 于 优化 数字 档案 服务 的 内 容 没 有 较 
多 的 探讨 。 基 于 数字 档案 的 知识 图 谱 的 构建 ， 
可 以 通过 数字 档案 本 体 之 间 的 关联 关系 ， 使 得 
档案 内 容 被 更 加 方便 快捷 地 分 解 和 分 类 ， 再 通 
过 图 谱 关 系 梳理 ， 使 得 档案 相关 内 容 能 够 产生 
联结 ， 在 用 户 检 索 其 一 时 将 相关 内 容 完 整地 推 
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rac 
送出 来 。 数 字 档 案 管理 不 同 于 数字 图 书 的 管理 ， 
由 于 档案 具有 隐私 性 ， 因 此 新 的 数字 档案 归档 
时 需 进 行 隐 私 性 和 公开 性 的 衡量 ， 从 而 导致 在 
档案 入 库 时 程序 更 加 繁琐 和 复杂 。 基 于 语义 关 
联 的 知识 图 谱 的 构建 ， 可 以 使 数字 档案 文本 入 
库 之 时 就 通过 识别 本 体 创建 链接 ， 自 动 分 类 。 
而 动态 更 新 则 是 指 图 谱 的 构建 不 是 一 成 不 变 的 ， 
而 是 随 着 档案 的 增加 和 删 减 而 不 断 变化 和 完善 ， 
可 以 通过 加 入 时 间 、 空 间 等 维度 ， 构 建 时 间 轴 
或 空间 轴 来 完善 图 谱 在 不 同时 空 的 内 容 。 图 谱 
的 动态 更 新 能 够 有 效 提高 档案 整理 效率 ， 同 时 
便于 不 同类 型 档案 的 规整 ， 也 能 够 为 档案 用 户 
提供 最 新 内 容 。 当 前 工程 档案 是 数字 档案 收藏 
和 管理 的 重点 ， 如 港 珠 澳 大 桥 这 类 国家 大 型 工 
TE, 其 档案 拥有 耗 时 长 、 总 量 大 、 部 门 多 等 特点 ， 
知识 图 谱 的 动态 更 新 特性 能 够 很 好 地 跟 上 工程 
档案 归档 需求 ， 全 程 记 录 归 纳 总 结 ， 自 动 分 类 
整理 ， 提 供 更 加 便利 的 服务 。 
5.2 用 户 偏好 个 性 化 推荐 

《全 国 档 案 事 业 发 展 “ 十 三 五 ”规划 纲要 》 
明确 指出 ，“ 要 提高 档案 公共 服务 能 力 ， 提 升 
档案 服务 的 认 知 度 和 用 户 满意 度 ”。 档 案 用 户 
面 对 当 前 繁杂 无 序 的 档案 资源 ， 不 仅 需要 自己 
提炼 检索 语句 ， 还 需要 处 理 复杂 的 检索 程序 ， 
导致 增 大 检索 耗 时 ， 也 会 降低 用 户 检索 兴趣 ， 
消减 用 户 检索 需求 。 同 时 ， 在 通过 图 谱 提 供 
性 化 服务 时 ， 档 案 用 户 的 需求 会 随 着 用 户 行为 
和 浏览 的 档案 内 容 而 产生 实时 变化 ， 用 户 需 求 
的 易 变 性 、 多 样 性 与 数字 档案 内 容 和 类 型 多 样 
性 的 关联 ， 提 高 了 档案 个 性 化 服务 功能 预测 用 
户 需求 的 难度 。 因 此 ， 针 对 用 户 的 动态 行为 反 
向 推断 用 户 档案 偏好 对 于 提升 数字 档案 服务 十 
分 重要 。 基 于 前 期 知识 加 工 对 档案 数据 的 转化 ， 
使 用 自然 语言 处 理 和 机 器 学 习 方法 对 档案 资源 
中 的 实体 进行 概念 提取 、 类 及 其 等 级 体系 的 确 
定 、 类 的 对 象 属性 及 数据 属性 的 确定 ， 以 及 本 
体 评价 等 过 程 ， 选 取 BERT 和 LSTM 等 多 类 深 
度 学 习 模 型 中。 预测 系统 不 仅 能 够 根据 用 户 页 
面 停留 时 间 以 及 浏览 速度 来 衡量 用 户 偏好 ， 并 
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且 能 够 运用 相关 技术 来 识别 用 户 的 自然 语言 ， 
通过 标准 化 处 理 转化 为 计算 机 可 识别 语言 ， 让 
计算 机 能 够 更 好 地 识别 用 户 偏 好 ， 增 加 数字 档 
案 服务 的 准确 性 。 在 预测 用 户 需 求 的 同时 ， 可 
以 根据 已 收集 到 的 用 户 行为 来 为 下 次 服务 做 铺 
垫 ,例如 , 用 户 对 实时 新 闻 以 及 档案 趣事 感 兴趣 ， 
知识 图 谱 识别 到 关键 词 后 根据 语义 关联 会 相应 
地 推送 实时 趣事 ， 以 及 与 趣事 产生 联系 的 一 系 
列 相关 内 容 ， 若 用 户 对 历史 档案 以 及 领域 专家 
研究 感 兴趣 ， 则 会 推送 相应 学 术 资 源 等 。 
5.3 数字 档案 智能 搜索 

档案 用 户 使 用 传统 档案 检索 时 ， 只 有 输入 
准确 的 档案 关键 词 搜 索 题 名 或 内 容 ， 才 能 检索 
到 相关 信息 。 这 种 服务 模式 对 检索 语言 精准 性 
要 求 较 高 ， 甚 至 有 时 出 现 由 于 档案 用 户 无 法 准 
确 表达 关键 词 而 搜索 不 到 想 要 的 档案 资源 的 情 
况 。 而 基于 知识 图 谱 的 数字 档案 服务 模式 ， 通 
过 自然 语言 处 理 技 术 (NLP ) 能 够 将 用 户 搜索 
时 使 用 的 自然 语言 自动 转化 为 计算 机 可 以 理解 
的 语言 ， 同 时 映射 到 数字 档案 知识 图 谱 中 不 同 
的 实体 或 属性 层级 ， 通 过 结合 实体 间 的 关系 来 
推送 相应 的 数字 档案 信息 资源 ， 提 供 体系 化 的 
档案 知识 供用 户 浏览 。 用 户 使 用 自然 语言 进行 
检索 时 也 能 精准 反馈 相应 内 容 ， 提 高 档案 查询 
的 查 准 率 和 查 全 率 ， 并 且 提 供 内 容 联想 服务 ， 
将 相关 内 容 统 一 且 连 贯 地 展现 在 用 户 面前 ， 减 
少 用 户 查 询 次 数 和 查询 步 又 ,提高 检索 效率 。“ 档 
案 潜 在 需求 是 未 被 唤醒 或 未 被 认识 到 的 需求 ， 
主要 包括 档案 潜在 用 户 的 需求 及 档案 现实 用 户 
未 表达 出 来 的 真实 的 需求 ”"%， 这 种 智能 内 容 
搜索 能 够 帮助 数字 档案 馆 加 深 与 用 户 之 间 的 联 
系 ， 通 过 相关 内 容 集成 推送 的 创新 服务 ， 吸 引 
用 户 浏览 ， 同 时 帮助 档案 馆 收 获 更 多 潜在 需求 
被 挖 据 的 用 户 ， 提 升 服务 质量 。 
5.4 数字 档案 馆 资源 共享 

基于 知识 图 谱 的 数字 档案 服务 ， 将 不 同 数 
字 档 案 馆 的 资源 聚集 ， 通 过 云 存 储 、 云 计算 等 
技术 整合 在 一 起 ， 建 立 数字 档案 知识 图 谱 ， 促 
进 资 源 间 的 相互 交流 ， 不 仪 便捷 地 服务 用 户 ， 
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也 给 各 大 档案 馆 之 间 的 交流 架 起 桥梁 。 为 了 迎 
合 当 下 信息 资源 相互 沟通 的 大 环境 ， 档 案 界 资 
源 交 互 也 显得 尤为 重要 。 基 于 知识 图 谱 的 数字 
档案 服务 模式 ， 能 够 将 不 同 数字 档案 馆 中 的 资 
源 汇 集 ， 通 过 识别 本 体 来 进行 语义 联结 ， 再 基 
于 档案 领域 关键 词 将 其 自动 归 类 于 不 同行 业 ， 
便于 查找 利用 。 知 识 图 谱 模 型 的 帮助 使 得 不 同 
数字 档案 馆 之 间 的 资源 共享 具有 很 强 的 可 操作 
性 。 在 服务 用 户 方 面 ， 资 源 的 融合 能 够 带 来 更 
丰富 的 档案 内 容 ， 达 到 减少 检索 步骤 的 同时 丰 
富 检 索 内 容 的 目的 。 基 于 当下 互联 网 带 来 的 便 
利 , 很 多 信息 都 可 以 如 实地 通过 互联 网 检索 到 ， 
但 由 于 档案 所 具备 的 隐私 性 和 个 体 性 使 得 档案 
检索 受 限 于 地 区 资源 。 知 识 图 谱 的 资源 共享 所 
带 来 的 便利 能 够 很 好 地 解决 地 区 间 的 信息 孤岛 ， 
并 且 通 过 融合 加 深 档 案 馆 之 间 的 创新 合作 ， 共 
同 提升 服务 质量 ， 让 档案 用 户 真 正 了 解 档 案 世 
界 中 丰富 的 内 核 ， 扩 大 档案 受众 群 ， 使 得 民众 
提高 档案 利用 意识 ， 提 升 档案 利用 价值 。 同 时 ， 
数字 档案 馆 在 开展 资源 共享 服务 时 也 可 依据 定 
位 需要 选择 不 同 的 机 构 来 建立 战略 联盟 。 在 选 
择 合作 伙伴 时 ， 可 选择 同一 领域 特长 的 数字 档 
案 机构 ， 从 而 加 强 某 一 领域 档案 的 馆藏 量 ， 体 
现 自身 在 茶 一 领域 的 特色 ; 也 可 以 选择 不 同 领 
域 特长 的 档案 机 构 , 从 而 提高 自身 的 综合 性 "1。 
通过 与 不 同 档案 馆 的 合作 ， 结 合 知 识 图 谱 所 带 
来 的 沟通 性 和 联结 性 ， 能 够 更 好 地 促进 数字 档 
案 服务 机 构 的 资源 交互 ， 为 数字 档案 服务 提供 
新 的 交流 环境 ， 推 动 数字 档案 服务 升级 。 


@ 结 语 


信息 化 时 代 ， 人 们 的 信息 行为 、 方 式 等 各 
个 方面 都 经 历 着 前 所 未 有 的 改变 。 语义 网 、 大 
数据 及 深度 学 习 等 技术 的 快速 发 展 ， 为 数字 档 
案 的 准确 性 和 智能 性 服务 提供 了 技术 保障 。 本 
文 提 出 一 种 基于 知识 图 谱 的 数字 档案 服务 模式 ， 
充分 运用 符合 当代 互联 网 技术 发 展 测 流 的 新 型 
智慧 技术 来 解决 当下 档案 服务 所 面临 的 问题 ， 
针对 当前 数字 档案 服务 中 存在 的 检索 语言 难 识 
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别 、 检 索 步 又 繁杂 、 检 索 内 容 单一 等 问题 ， 通 
过 创建 知识 图 谱 架 构 ， 提 出 解决 策略 ， 不 断 推 
进 档案 服务 发 展 以 及 档案 业务 与 新 兴 技 术 的 结 
合 。 但 本 研究 仅 针对 数字 档案 服务 进行 探讨 ， 
仍 存在 浮 于 理论 、 难 以 实现 等 问题 ， 未 来 将 努 
力 推进 数字 档案 知识 图 谱 的 现实 构建 ， 并 通过 
收集 真实 用 户 反 馈 意见 对 该 构想 进行 进一步 完 
善 , 促使 数字 档案 服务 有 更 深层 的 提升 和 优化 。 
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Research on Digital Archives Service Mode Based on Knowledge Graph 
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Abstract: [Purpose/significance] Aiming at shortcomings of the current service quality of digital 
archives, such as insufficient intelligence and single service content, this paper proposed to build an overall 
framework of knowledge graph of digital archives, so as to achieve statistical analysis of big data for digital 
archive, integration and optimization of digital archiving resources, and improvement on the overall service 
level of digital archives. [Method/process] By collecting literatures, service deficiencies of digital archives 
were analyzed. This paper investigated the web page service level of digital archives in various provinces 
and cities, summarized deficiencies of the current service mode of each archive, and improved the framework 
process of digital archives' knowledge graph, finally the framework process was presented in the form of flow 
chart. [Result/conclusion| Knowledge graph can transform multiple types of digital archive text into data 
that computers can understand, and improve the level of computer intelligent identification. At the same time, 
dynamic timing and pertinence of the graph can improve the degree of integration archives according to the 
time node, user data can be updated based on users' retrieval trace to improve the service quality, enhance the 
cooperation and communication between digital archives to achieve the result of resources integration, and 
provide a useful reference to better optimize the digital archiving service. 
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